Tema I.4: Análisis de Relaciones

Autor/a


LÿRA
L.RodriguezAragon@uclm.es

Fecha de publicación

15 de febrero de 2026

Estadística (Grados en Ingeniería 2025 / 2026)

Licesio J. Rodríguez Aragón
Escuela Ing. Industrial y Aeroespacial de Toledo
Departamento de Matemáticas
Universidad de Castilla-La Mancha

Bloque I: Estadística Descriptiva

Tema I.4: Análisis de Relaciones (p. 98)

Variable respuesta y variable explicativa

Una variable respuesta mide el resultado de un estudio. Una variable explicativa influye o explica cambios en la variable respuesta.

A menudo, encontrarás que a las variables explicativas se les llama variables independientes y a las variables respuesta, variables dependientes. La idea es que el valor de la variable respuesta depende del de la variable explicativa.

La manera más fácil de distinguir entre variables explicativas y variables respuesta es dar valores a una de ellas y ver lo que ocurre en la otra.

Muchos estudios estadísticos examinan datos de más de una variable. Afortunadamente, los estudios estadísticos de datos de varias variables se basan en las herramientas que hemos utilizado para examinar una sola variable. Los principios en los que se basa nuestro trabajo también son los mismos:

  • Empieza con un gráfico; luego, añade resúmenes numéricos.
  • Identifica el aspecto general y las desviaciones.
  • Cuando el aspecto general sea bastante regular, utiliza un modelo matemático para describirlo.

Diagrama de dispersión

Un diagrama de dispersión muestra la relación entre dos variables cuantitativas medidas en los mismos individuos. Los valores de una variable aparecen en el eje de las abscisas y los de la otra en el eje de las ordenadas. Cada individuo aparece como un punto del diagrama. Su posición depende de los valores que toman las dos variables en cada individuo.

Sitúa siempre a la variable explicativa, si una de ellas lo es, en el eje de las abscisas del diagrama de dispersión. En general, llamamos a la variable explicativa x y a la variable respuesta y. Si no distinguimos entre variable explicativa y variable respuesta, cualquiera de las dos se puede situar en el eje de las abscisas.

setwd("C://Users//lrodr//Documents//OneDrive - Universidad de Castilla-La Mancha//R")
PaisesEuropeos <- read.table("Paises europeos - Hoja 1.csv", 
                             header = TRUE, sep = ",")
plot(PaisesEuropeos$Renta.per.Capita,PaisesEuropeos$Periodicos, 
     main="Renta per Cápita frente a Períodicos/mil habitantes")

Datos Estados Europeos

Helicóptero:

Tiempos<-c(1.89,2.10,2.55,2.95,3.09,3.35,2.57,
           1.82,2.06,2.53,3.07,3.12,3.33,2.45,
           1.80,2.15,2.48,3.00,3.20,3.00,2.80,
           1.73,1.92,2.30,2.86,3.10,3.37,2.18,
           1.80,2.00,2.42,2.99,3.04,3.24,2.55,
           1.85,2.00,2.35,2.93,3.10,3.15,2.10,
           1.70,2.19,2.20,3.03,3.17,3.45,3.00,
           1.63,1.78,2.31,3.08,3.35,3.87,3.09,
           1.80,2.20,2.40,3.00,3.20,3.65,3.00)
Ala<-rep(c(5,7,9,11,13,15,17),9)
Titulacion<-c(rep("GIE",21),rep("GIA",21),rep("GIEA",21))
Crono<-rep(c(rep("Movil",7),rep("Movil",7),rep("Crono",7)),3)
helicoptero<-data.frame(Tiempos,Ala,Titulacion,Crono)
head(helicoptero)
  Tiempos Ala Titulacion Crono
1    1.89   5        GIE Movil
2    2.10   7        GIE Movil
3    2.55   9        GIE Movil
4    2.95  11        GIE Movil
5    3.09  13        GIE Movil
6    3.35  15        GIE Movil
plot(helicoptero$Ala,helicoptero$Tiempos,
     type = "n",xlab="Ala",ylab="Tiempo")
points(helicoptero$Ala[1:14],helicoptero$Tiempos[1:14],col="orange",pch=16)
points(helicoptero$Ala[15:21],helicoptero$Tiempos[15:21],col="orange",pch=1)
points(helicoptero$Ala[22:35],helicoptero$Tiempos[22:35],col="red",pch=16)
points(helicoptero$Ala[36:42],helicoptero$Tiempos[36:42],col="red",pch=1)
points(helicoptero$Ala[43:56],helicoptero$Tiempos[43:56],col="blue",pch=16)
points(helicoptero$Ala[57:63],helicoptero$Tiempos[57:63],col="blue",pch=1)

Examen de un diagrama de dispersión

En cualquier gráfico de datos, identifica el aspecto general y las desviaciones sorprendentes del mismo.

Puedes describir el aspecto general de un diagrama de dispersión mediante la forma, la dirección y la fuerza de la relación.

Un tipo importante de desviación son las observaciones atípicas, valores individuales que quedan fuera del aspecto general de la relación.

Asociación positiva y asociación negativa

Dos variables están asociadas positivamente cuando valores superiores a la media de una de ellas tienden a ir acompañados de valores también situados por encima de la media de la otra variable, y cuando valores inferiores a la media también tienden a ocurrir conjuntamente.

Dos variables están asociadas negativamente cuando valores superiores a la media de una de ellas tienden a ir acompañados de valores inferiores a la media de la otra variable, y viceversa.

Ejercicio (2.6 p.108): El consumo, ¿aumenta con la velocidad? ¿Cómo varía el consumo de gasolina de un coche a medida que aumenta su velocidad? Aquí se presentan los datos correspondientes al modelo británico del Ford Escort. La velocidad se ha medido en kilómetros por hora y el consumo de carburante en litros de gasolina por 100 kilómetros.

Velocidad<-seq(10,150,10)
Consumo<-c(21,13,10,8,7,5.9,6.30,6.95,7.57,8.27,9.03,9.87,10.79,11.77,12.83)
FordEscort<-data.frame(Velocidad,Consumo)
plot(FordEscort$Velocidad,FordEscort$Consumo,xlab="Velocidad",ylab="Consumo")

  • Dibuja un diagrama de dispersión. ¿Cuál es la variable explicativa?
  • Describe la forma de la relación. ¿Por qué no es lineal? Explica lo que indica la forma de la relación.
  • ¿Por qué no tiene sentido decir que las variables están asociadas positiva o negativamente?
  • La relación, ¿es razonablemente fuerte o, por el contrario, es más bien débil? Justifica tu respuesta.

Correlación o relación lineal

Un diagrama de dispersión muestra la forma, la dirección y la fuerza de la relación entre dos variables cuantitativas. Las relaciones lineales son especialmente importantes, ya que una recta es una figura sencilla bastante común. Decimos que una relación lineal es fuerte si los puntos del diagrama de dispersión se sitúan cerca de la recta, y débil si los puntos se hallan muy esparcidos respecto de la recta.

La correlación mide la fuerza y la dirección de la relación lineal entre dos variables cuantitativas. La correlación se simboliza con la letra \(r\).

Supón que tenemos datos de dos variables \(x\) e \(y\) para \(n\) individuos. Los valores para el primer individuo son \(x_1\) e \(y_1\), para el segundo son \(x_2\) e \(y_2\), etc. Las medias y las desviaciones típicas de las dos variables son \(\bar x\) y \(s_x\) para los valores de \(x\), e \(\bar y\) y \(s_y\) para los valores de \(y\). La correlación \(r\) entre \(x\) e \(y\) es \[r=\frac{1}{n-1}\sum (\frac{x_i-\bar x}{s_x})(\frac{y_i-\bar y}{s_y})\] La fórmula de \(r\) empieza estandarizando las observaciones. Supón, por ejemplo, que \(x\) es la altura en centímetros e \(y\) el peso en kilogramos y que tenemos las alturas y los pesos de \(n\) personas. Por tanto \(\bar x\) y \(s_x\) son la media y la desviación típica de las \(n\) alturas, ambas expresadas en centímetros. El valor \[\frac{x_i-\bar x}{s_x}\] es la altura estandarizada de la i-ésima persona, tal como vimos en el tema 1.3.

La altura estandarizada nos indica a cuántas desviaciones típicas se halla la altura de un individuo con respecto a la media. Los valores estandarizados no tienen unidades de medida en este ejemplo, las alturas estandarizadas ya no se expresan en centímetros-. Estandariza también los pesos. La correlación \(r\) es como una media de los productos de las alturas estandarizadas y de los pesos estandarizados para las \(n\) personas.

cor(PaisesEuropeos$Renta.per.Capita,PaisesEuropeos$Periodicos)
[1] 0.5853251
cor(FordEscort$Velocidad,FordEscort$Consumo)
[1] -0.1716216
cor(helicoptero$Ala,helicoptero$Tiempos)
[1] 0.7469046

Datos sobre los Estados Europeos

A continuación tienes las siete ideas que necesitas conocer para poder interpretar correctamente la correlación.

  1. La correlación no hace ninguna distinción entre variables explicativas y variables respuesta. Da lo mismo llamar \(x\) o \(y\) a una variable o a otra.

  2. La correlación exige que las dos variables sean cuantitativas para que tenga sentido hacer los cálculos de la fórmula de \(r\). No podemos calcular la correlación entre los ingresos de un grupo de personas y la ciudad en la que viven, ya que la ciudad es una variable categórica.

  3. Como \(r\) utiliza los valores estandarizados de las observaciones, no varía cuando cambiamos las unidades de medida de \(x\), de \(y\) o de ambas. Si en vez de medir la altura en centímetros lo hubiéramos hecho en pulgadas, o si en lugar de medir el peso en kilogramos lo hubiéramos hecho en libras, el valor de \(r\) sería el mismo. La correlación no tiene unidad de medida. Es sólo un número.

  4. Una \(r\) positiva indica una asociación positiva entre las variables. Una \(r\) negativa indica una asociación negativa.

  5. La correlación \(r\) siempre toma valores entre \(-1\) y \(1\).Valores de \(r\) cercanos a \(0\) indican una relación lineal muy débil. La fuerza de la relación lineal aumenta a medida que \(r\) se aleja de \(0\) y se acerca a \(1\) o a \(-1\). Los valores de \(r\) cercanos a \(-1\) o a \(1\) indican que los puntos se hallan cercanos a una recta. Los valores extremos \(r = -1\) o \(r = 1\) sólo se dan cuando existe una relación lineal perfecta y los puntos del diagrama de dispersión están exactamente sobre una recta. (Puedes consultar la Demostración en el ANEXO)

  6. La correlación SÓLO mide la fuerza de una relación LINEAL entre dos variables. La correlación no describe las relaciones curvilíneas entre variables aunque sean muy fuertes.

  7. Al igual que ocurre con la media y la desviación típica, la correlación se ve fuertemente afectada por unas pocas observaciones atípicas. Cuando detectes la presencia de observaciones atípicas en el diagrama de dispersión, utiliza \(r\) con precaución.

Recuerda que la correlación no es una descripción completa de los datos de dos variables, incluso cuando la relación entre las variables es lineal. Junto con la correlación tienes que dar las medias y las desviaciones típicas de x e y. (Debido a que la fórmula de la correlación utiliza las medias y las desviaciones típicas, estas medidas son las adecuadas para acompañar la correlación).

Conclusiones basadas sólo en las correlaciones puede que tengan que ser revisadas a la luz de una descripción más completa de los datos.

Recta de regresión mínimo-cuadrática

La recta de regresión es una recta que describe cómo cambia una variable respuesta y a medida que cambia una variable explicativa \(x\).

A menudo, utilizamos una recta de regresión para predecir el valor de \(y\) a partir de un valor dado de \(x\).

Es decir, la regresión describe una relación entre una variable explicativa y una variable respuesta.

Diferentes personas dibujarían, a simple vista, diferentes rectas en un diagrama de dispersión. Necesitamos una manera de dibujar la recta de regresión que no dependa de nuestra intuición de por dónde tendría que pasar dicha recta. Utilizaremos la recta para predecir \(y\) a partir de \(x\); en consecuencia, los errores de predicción estarán en \(y\), el eje de las ordenadas del diagrama de dispersión.

\[\text{error}=\text{valor observado} - \text{valor predicho}= y-\hat{y}\]

Ninguna recta podrá pasar exactamente por todos los puntos del diagrama de dispersión. Queremos que las distancias verticales de los puntos a la recta sean lo más pequeñas posible.

La recta de regresión mínimo-cuadrática de \(y\) con relación a \(x\) es la recta que hace que la suma de los cuadrados de las distancias verticales de los puntos observados a la recta sea lo más pequeña posible.

Ecuación de la recta de regresión mínimo-cuadrática

Tenemos datos de la variable explicativa \(x\) y de la variable respuesta \(y\) para \(n\) individuos. A partir de los datos, calcula \(\bar x\) e \(\bar y\), las desviaciones típicas \(s_x\) y \(s_y\) de las dos variables y su correlación. La recta de regresión mínimo-cuadrática es \[\hat y=a+b\cdot x\] \[y=a+b\cdot x + error = a+b\cdot x + \varepsilon \] con pendiente \[b=r\frac{s_y}{s_x}\] y ordenada en el origen \[a=\bar{y}-b\cdot\bar{x}\] Escribimos \(y\) en la ecuación de la recta de regresión para subrayar que la recta predice una respuesta \(\hat{y}\) para cada \(x\). (Puedes consultar la Demostración en el ANEXO)

Datos sobre los Estados Europeos

La pendiente de una recta de regresión es importante para interpretar los datos. Esta pendiente es la tasa de cambio, la cantidad en que varía \(y\) cuando \(x\) aumenta en una unidad.

La ordenada en el origen de la recta de regresión es el valor de y cuando \(x = 0\). Aunque necesitamos el valor de la ordenada en el origen para dibujar la recta de regresión, sólo tiene significado estadístico cuando \(x\) toma valores cercanos a \(0\).

La ecuación de la recta de regresión facilita la predicción. Tan sólo sustituye \(x\) por un valor concreto en la ecuación.

Para trazar la recta en el diagrama de dispersión, utiliza la ecuación para hallar \(y\) de dos valores de \(x\) que se encuentren en los extremos del intervalo determinado por los valores de \(x\) de los datos. Sitúa cada \(y\) sobre su respectiva \(x\) y traza la recta que pase por los dos puntos.

regresion<-lm(PaisesEuropeos$Periodicos~PaisesEuropeos$Renta.per.Capita)
regresion

Call:
lm(formula = PaisesEuropeos$Periodicos ~ PaisesEuropeos$Renta.per.Capita)

Coefficients:
                    (Intercept)  PaisesEuropeos$Renta.per.Capita  
                       51.34800                          0.01213  

\[Periodicos = 51.35 \text{perióidicos/1K hab} + 0.012 \frac{\text{periódicos/1K hab}}{\$} \cdot RpC + \varepsilon\]

plot(PaisesEuropeos$Renta.per.Capita,PaisesEuropeos$Periodicos)
abline(regresion)

cor(PaisesEuropeos$Renta.per.Capita,PaisesEuropeos$Periodicos)
[1] 0.5853251
regresion_h<-lm(Tiempos[Ala!=17]~Ala[Ala!=17], data=helicoptero)
regresion_h

Call:
lm(formula = Tiempos[Ala != 17] ~ Ala[Ala != 17], data = helicoptero)

Coefficients:
   (Intercept)  Ala[Ala != 17]  
        0.9211          0.1702  

\[Tiempo = 0.92 s + 0.17 \frac{s}{cm} \cdot Ala + \varepsilon\]

plot(helicoptero$Ala,helicoptero$Tiempos)
abline(regresion_h)

cor(helicoptero$Ala[helicoptero$Ala!=17],helicoptero$Tiempos[helicoptero$Ala!=17])
[1] 0.9623129
summary(regresion_h)

Call:
lm(formula = Tiempos[Ala != 17] ~ Ala[Ala != 17], data = helicoptero)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.47418 -0.10387  0.00726  0.08507  0.39582 

Coefficients:
               Estimate Std. Error t value Pr(>|t|)    
(Intercept)     0.92109    0.07049   13.07   <2e-16 ***
Ala[Ala != 17]  0.17021    0.00667   25.52   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.1674 on 52 degrees of freedom
Multiple R-squared:  0.926, Adjusted R-squared:  0.9246 
F-statistic: 651.1 on 1 and 52 DF,  p-value: < 2.2e-16

Características de la regresión mínimo-cuadrática

La regresión mínimo-cuadrática tiene en cuenta las distancias de los puntos a la recta sólo en la dirección de \(y\). Por tanto, en una regresión las variables \(x\) e \(y\) juegan papeles distintos.

Característica 1. La distinción entre variable explicativa y variable respuesta es básica en regresión. La regresión mínimo-cuadrática considera sólo las distancias verticales de los puntos a la recta. Si cambiamos los papeles de las dos variables, obtenemos una recta de regresión mínimo-cuadrática distinta.

Característica 2. Existe una estrecha conexión entre la correlación y la regresión. La pendiente de la recta de regresión mínimo-cuadrática es \[b=r\frac{s_y}{s_x}\] Esta ecuación indica que, a lo largo de la recta de regresión, a un cambio de una desviación típica de \(x\) le corresponde un cambio de \(r\) desviaciones típicas de \(y\). Cuando las variables están perfectamente correlacionadas (\(r = 1\) o \(r = -1\)), el cambio en la respuesta predicha \(y\) es igual al cambio de \(x\) (expresado en desviaciones típicas). En los restantes casos, como \(-1\le r\le 1\),el cambio de \(\hat y\) menor que el cambio de \(x\). A medida que la correlación es menos fuerte, la predicción \(\hat y\) se mueve menos en respuesta a los cambios de \(x\).

Carecterística 3. La recta de regresión mínimo-cuadrática siempre pasa por el punto \((\bar{x},\bar{y})\) del diagrama de dispersión de \(y\) con relación \(x\).Por tanto, la reda de regresión mínimo-cuadrática de \(y\) con relación a \(x\) es la recta de pendiente \(r\frac{s_y}{s_x}\) que pasa a través del punto \((\bar{x},\bar{y})\). Podemos describir completamente la regresión con \(\bar{x}\), \(s_x\), \(\bar{y}\), \(s_y\) y \(r\).

Característica 4. La correlación \(r\) describe la fuerza de la relación lineal. En este contexto se expresa de la siguiente manera: el cuadrado de la correlación, \(r^2\), es la fracción de la variación de las \(y\) que explica la recta de regresión mínimo-cuadrática de \(y\) con relación a \(x\).

La idea de la regresión es la siguiente: cuando existe una relación lineal, parte de la variación de \(y\) se explica por el hecho de que cuando \(x\) cambia, arrastra consigo a \(y\).

Es posible dividir la variación total de los valores observados de \(y\) en dos partes. Una de ellas es la variación que esperamos obtener de \(\hat{y}\) a medida que \(x\) se mueve a lo largo de la recta de regresión.La otra mide la variación de los datos con relación a la recta. El cuadrado de la correlación \(r^2\) es el primero de estos dos componentes expresado como fracción de la variación total. (Puedes consultar la Demostración en el ANEXO)

Fuente: @levikul09

Cuando presentes los resultados de una regresión, da el valor de \(r^2\) como una medida de lo buena que es la respuesta que proporciona la regresión.

Las características anteriores son propiedades especiales de la regresión mínimo-cuadrática. No son ciertas para otros métodos de ajuste de una recta a unos datos.

Residuos

Una recta de regresión es un modelo matemático que describe una relación lineal entre una variable explicativa y una variable respuesta. Las desviaciones de la relación lineal también son importantes.

Un residuo es la diferencia entre el valor observado de la variable respuesta \(y\) el valor predicho por la recta de regresión. Es decir,

\[residuo=observada - predicha\] \[residuo=y -\hat{y}\]

Un diagrama de residuos es un diagrama de dispersión de los residuos de la regresión con relación a la variable explicativa. Los diagramas de residuos nos ayudan a valorar el ajuste de la recta de regresión.

  • Una forma curva de la distribución de los residuos indica que la relación no es lineal. La recta no es una buena descripción para estos datos.

  • Un crecimiento o decrecimiento de la dispersión de los residuosa medida que aumentan las \(x\). En él,la predicción de \(y\) será menos precisa para valores de \(x\) mayores.

  • Los puntos individuales con residuos grandes. Estos puntos son observaciones atípicas, ya que no encajan en el aspecto lineal de la nube de puntos.

  • Los puntos individuales que son extremos en el eje de las abscisas. Estos puntos pueden no tener grandes residuos, pero pueden ser muy importantes. Más adelante estudiaremos este tipo de puntos.

Datos sobre los Estados Europeos

residuals(regresion)
          1           2           3           4           5           6 
 -38.753962   43.890907  -19.475625  -60.454787 -108.496989  231.912658 
          7           8           9          10          11          12 
-131.149717   -7.115652   65.052353  -30.744138 -179.183921 -162.916321 
         13          14          15          16 
 234.324796 -118.050260  108.251932  172.908728 
mean(residuals(regresion))
[1] -4.996004e-16
plot(residuals(regresion));abline(h=0)
hist(residuals(regresion))
boxplot(residuals(regresion),range=0)

Helicópteros:

residuals(regresion_h)
          1           2           3           4           5           6 
 0.11788360 -0.01252910  0.09705820  0.15664550 -0.04376720 -0.12417989 
          7           8           9          10          11          12 
 0.04788360 -0.05252910  0.07705820  0.27664550 -0.01376720 -0.14417989 
         13          14          15          16          17          18 
 0.02788360  0.03747090  0.02705820  0.20664550  0.06623280 -0.47417989 
         19          20          21          22          23          24 
-0.04211640 -0.19252910 -0.15294180  0.06664550 -0.03376720 -0.10417989 
         25          26          27          28          29          30 
 0.02788360 -0.11252910 -0.03294180  0.19664550 -0.09376720 -0.23417989 
         31          32          33          34          35          36 
 0.07788360 -0.11252910 -0.10294180  0.13664550 -0.03376720 -0.32417989 
         37          38          39          40          41          42 
-0.07211640  0.07747090 -0.25294180  0.23664550  0.03623280 -0.02417989 
         43          44          45          46          47          48 
-0.14211640 -0.33252910 -0.14294180  0.28664550  0.21623280  0.39582011 
         49          50          51          52          53          54 
 0.02788360  0.08747090 -0.05294180  0.20664550  0.06623280  0.17582011 
mean(residuals(regresion_h))
[1] -6.162635e-18
plot(residuals(regresion_h));abline(h=0)
hist(residuals(regresion_h))
boxplot(residuals(regresion_h),range=0)

Observaciones atípicas y observaciones influyentes en regresión

Una observación atípica es aquélla que queda separada de las restantes observaciones.

Una observación es influyente con relación a un cálculo estadístico si al eliminarla cambia el resultado del cálculo. En regresión mínimo-cuadrática, las observaciones atípicas en la dirección del eje de las abscisas son, en general, observaciones influyentes.

Debido a que los residuos muestran a qué distancia se hallan los datos de nuestra recta de regresión, el examen de los residuos nos ayuda a valorar en que medida la recta describe la distribución de los datos. A pesar de que los residuos se pueden calcular a partir de cualquier modelo que se haya ajustado a los datos, los de la recta de regresión mínimo-cuadrática tienen una propiedad especial: la media de los residuos es siempre cero.

EJERCICIO: En un proceso de fabricación se ha recogido el rendimiento del proceso (en gramos de producto por kilogramo de materia prima) así como la riqueza de la materia prima (en porcentaje). Los datos de los que se dispone son los siguientes:

riqueza en % : 20 % 22 % 24 % 26 %
rendimiento en g/kg : 120 112 139 140
\(\phantom{m}\) 106 134 121 152
\(\phantom{m}\) 109 120 122 162
\(\phantom{m}\) 103 119 121 133
  1. Representar gráficamente el rendimiento del producto en función de la riqueza. A la vista del gráfico qué tipo de relación existe entre ambas variables: forma, dirección y fuerza.
riqueza<-rep(c(20,22,24,26),4)
rendimiento<-c(120,112,139,140,106,134,121,152,109,120, 122,162,103,119,121,133)
plot(riqueza,rendimiento)

  1. Calcular y representar gráficamente la recta de regresión que explica el rendimiento del producto.

Calulamos medias y desviaciones típicas, primero de la variable explicativa (riqueza):

\(\overline{\text{riqueza}}=\) 23%, \(s_{riqueza}=\) 2.3094011%.

Después de la variable respuesta (rendimiento):

\(\overline{\text{rendimiento}}=\) 125.8125g/kg, \(s_{rendimiento}=\) 16.4325642g/kg.

Calculamos ahora la correlación lineal entre ambas variables, es una cantidad adimensional y por el aspecto del gráfico de dispersión debe tener un valor positivo: \(r=\frac{1}{15}\sum(\frac{(riqueza_i-\overline{riqueza})}{s_{riqueza}})(\frac{rendimiento_i-\overline{rendimiento}}{s_{rendimiento}})=\) 0.8168776.

Para calcular la recta de regresión calculamos la pendiente \(b=r\frac{s_{rendimiento}}{s_{riqueza}}=\) 5.8125g/kg% y la ordenada en el orígen \(a=\overline{rendimiento}\; - b\cdot\overline{riqueza}=\) -7.875g/kg.

Representamos gráficamente la recta \[rendimiento=a + b\cdot riqueza + \varepsilon\]

lm(rendimiento~riqueza)

Call:
lm(formula = rendimiento ~ riqueza)

Coefficients:
(Intercept)      riqueza  
     -7.875        5.812  
plot(riqueza,rendimiento)
abline(lm(rendimiento~riqueza))

  1. Qué rendimiento nos proporcionará una materia prima con una riqueza del 23% (vigila las unidades). ¿Cómo de buena es la recta de regresión?

Usamos nuestro modelo de regresión: \(rendimiento=\) -7.875g/kg+5.8125g/kg% \(\cdot riqueza + \varepsilon\), y lo evaluamos para una \(riqueza=23\%\).

La predicción de \(\widehat{rendimiento}\phantom{i}=\) 125.8125g/kg.

La regresión explica, \(r^2=\) 0.667289, algo más del 66% de la variabilidad de la variable rendimiento. Con lo que podemos decir que la regresión es buena, aunque queda bastante información en los residuos.

  1. ¿Qué son los residuos de una regresión? Calcula los residuos de las 4 observaciones correspondientes a una riqueza del 26% (vigila las unidades).

Los residuos son la diferencia entre el valor real de la variable respuesta y la predicción dada por la recta de regresión.

\[\varepsilon = rendimiento - \widehat{rendimiento}\]

La predicción para una riqueza del 26% es \(\widehat{rendimiento}\phantom{i}=\) 143.25g/kg, mientras que los valores observados, para ese porcentaje de riqueza, según el enunciado han sido: 140, 152, 162 y 133 g/kg.

Los cuatro residuos, o cuatro errores son: -3.25, 8.75, 18.75 y -10.25 g/kg.

Precauciones con la correlacion y la regresion

La correlación y la regresión son dos potentes instrumentos para describir la relación entre dos variables. Cuando los utilices tienes que recordar sus limitaciones, empezando por el hecho de que la correlación y la regresión sólo describen relaciones lineales. Recuerda también que tanto la correlación \(r\) como la recta de regresión mínimo-cuadrática pueden estar muy influenciadas por unas pocas observaciones extremas.

Extrapolación

La extrapolación es la utilización de una recta de regresión para la predicción fuera del intervalo de valores de la variable explicativa \(x\) que utilizaste para obtener la recta. Este tipo de predicciones no son fiables.

Pocas relaciones son lineales para todos los valores de \(x\). Por consiguiente, no extiendas la predicción más allá del intervalo de valores de \(x\) para los que tienes datos.

Variable latente

Una variable latente es una variable que no se incluye entre las variables estudiadas y que, sin embargo, tiene un importante efecto sobre la relación que existe entre ellas.

A veces, la relación entre dos variables se encuentra muy influida por otras variables que no medimos o de las que ni siquiera sospechábamos su existencia. A estas últimas variables las llamamos variables latentes.

Asociación no implica causalidad

Una asociación entre una variable explicativa \(x\) y una variable respuesta \(y\), incluso si es muy fuerte, no es por sí misma una evidencia suficiente de que cambios de \(x\) realmente causen cambios de \(y\).

La mejor manera de obtener una buena evidencia de que \(x\) causa \(y\) es realizar un experimento en el que \(x\) tome distintos valores y las variables latentes se mantengan bajo control.

¡Correlación no implica causalidad!

Ejercicio (2.19 p.127) Si las mujeres siempre se casaran con hombres que fueran 2 años mayores que ellas, ¿cuál sería la correlación entre las edades de las esposas y las edades de sus maridos? (Sugerencia: dibuja un diagrama de dispersión con varias edades.)

Relaciones entre variables categóricas

Hasta ahora, nos hemos concentrado en relaciones en las que al menos la variable respuesta era cuantitativa. Ahora nos interesaremos en relaciones entre dos o más variables categóricas. Algunas variables como son el sexo, la raza o la profesión son intrínsecamente categóricas. Otras variables categóricas se crean agrupando valores de variables cuantitativas en clases. Cuando se publican datos, a menudo se presentan en forma agrupada para ahorrar espacio.

Para analizar datos categóricos utilizamos recuentos o porcentajes de los individuos que componen las distintas clases o categorías.

Ejemplo: Incidencias UCLM. El fichero de IncidenciasUCLM contiene información de las incidencias informáticas registradas en el día de ayer en los distintos campus de la UCLM.

setwd("C://Users//lrodr//Documents//OneDrive - Universidad de Castilla-La Mancha//R")
IncidenciasUCLM <- read.table("IncidenciasUCLM - Hoja 1.csv", header = TRUE, sep = ",")
head(IncidenciasUCLM)
  Campus      Tipo Tiempo Prioridad Tecnicos
1     AL        Hw     19         2        4
2     AL     Redes     22         3        2
3     AL        Hw     23         2        2
4     AL Telefonia     14         0        2
5     AL Telefonia      9         2        3
6     AL     Redes      9         1        2
tail(IncidenciasUCLM)
   Campus      Tipo Tiempo Prioridad Tecnicos
45     TO        Sw      2         3        2
46     TO Telefonia     16         0        3
47     TO        Hw      8         3        4
48     TO     Redes      6         1        4
49     TO Telefonia      5         0        3
50     TO     Redes      6         1        2
names(IncidenciasUCLM)
[1] "Campus"    "Tipo"      "Tiempo"    "Prioridad" "Tecnicos" 

Tabla de contingencia

Una tabla de contingencia describe dos variables categóricas, estas variables se diferenciarán en variable fila y variable columna. Los valores de la tabla son los recuentos o el porcentaje de los individuos que pertenecen a cada una de las categorías.

n<-nrow(IncidenciasUCLM)
TCrecuento<-table(IncidenciasUCLM$Campus,IncidenciasUCLM$Tipo)
TCrecuento
    
     Hw Redes Sw Telefonia
  AL  2     5  0         3
  AM  2     0  1         1
  CR  0     2 10         1
  CU  3     2  4         1
  TA  1     1  1         1
  TO  2     3  1         3
barplot(TCrecuento,legend=TRUE, ylab="Recuento")

barplot(t(TCrecuento),legend=TRUE, ylab="Recuento")

barplot(TCrecuento,beside=TRUE,legend=TRUE, ylab="Recuento")

TCporcentaje<-table(IncidenciasUCLM$Campus,IncidenciasUCLM$Tipo)/n*100
TCporcentaje
    
     Hw Redes Sw Telefonia
  AL  4    10  0         6
  AM  4     0  2         2
  CR  0     4 20         2
  CU  6     4  8         2
  TA  2     2  2         2
  TO  4     6  2         6

Distribuciones marginales

Si la columna y la fila de totales no están, lo primero que hay que hacer al analizar una tabla de contingencia es calcularlas. Las distribuciones de la variable fila y de la variable columna, de forma separada, se llaman distribuciones marginales, ya que aparecen en los márgenes derecho e inferior de la tabla de contingencia.

A menudo, los porcentajes se captan más fácilmente que los recuentos. Podemos expresar la distribución marginal de la educación en forma de porcentajes dividiendo los valores de la columna de totales por el total de la tabla y multiplicando por cien.

addmargins(TCrecuento)
     
      Hw Redes Sw Telefonia Sum
  AL   2     5  0         3  10
  AM   2     0  1         1   4
  CR   0     2 10         1  13
  CU   3     2  4         1  10
  TA   1     1  1         1   4
  TO   2     3  1         3   9
  Sum 10    13 17        10  50
addmargins(TCporcentaje)
     
       Hw Redes  Sw Telefonia Sum
  AL    4    10   0         6  20
  AM    4     0   2         2   8
  CR    0     4  20         2  26
  CU    6     4   8         2  20
  TA    2     2   2         2   8
  TO    4     6   2         6  18
  Sum  20    26  34        20 100

Distribuciones condicionales

Las distribuciones condicionales son los porcentajes de una variable si consideramos fijos los valores de la otra variable.

Si la variable que fijamos es la dispuesta en fila, se divide cada elemento de la tabla por la distribución marginal de su fila y se multiplica por 100. La suma de las filas dará el porcentaje total 100.

prop.table(TCrecuento,1)*100
    
            Hw     Redes        Sw Telefonia
  AL 20.000000 50.000000  0.000000 30.000000
  AM 50.000000  0.000000 25.000000 25.000000
  CR  0.000000 15.384615 76.923077  7.692308
  CU 30.000000 20.000000 40.000000 10.000000
  TA 25.000000 25.000000 25.000000 25.000000
  TO 22.222222 33.333333 11.111111 33.333333
addmargins(prop.table(TCrecuento,1)*100)
     
              Hw      Redes         Sw  Telefonia        Sum
  AL   20.000000  50.000000   0.000000  30.000000 100.000000
  AM   50.000000   0.000000  25.000000  25.000000 100.000000
  CR    0.000000  15.384615  76.923077   7.692308 100.000000
  CU   30.000000  20.000000  40.000000  10.000000 100.000000
  TA   25.000000  25.000000  25.000000  25.000000 100.000000
  TO   22.222222  33.333333  11.111111  33.333333 100.000000
  Sum 147.222222 143.717949 178.034188 131.025641 600.000000
barplot(t(prop.table(TCrecuento,1)*100),legend=TRUE, ylab="Porcentaje relativo")

Si por el contrario la que se fija es la columna, se divide cada elemento de la tabla por la distribución marginal de su columna. La suma de las columnas dará el porcentaje total 100.

prop.table(TCrecuento,2)*100
    
            Hw     Redes        Sw Telefonia
  AL 20.000000 38.461538  0.000000 30.000000
  AM 20.000000  0.000000  5.882353 10.000000
  CR  0.000000 15.384615 58.823529 10.000000
  CU 30.000000 15.384615 23.529412 10.000000
  TA 10.000000  7.692308  5.882353 10.000000
  TO 20.000000 23.076923  5.882353 30.000000
addmargins(prop.table(TCrecuento,2)*100)
     
              Hw      Redes         Sw  Telefonia        Sum
  AL   20.000000  38.461538   0.000000  30.000000  88.461538
  AM   20.000000   0.000000   5.882353  10.000000  35.882353
  CR    0.000000  15.384615  58.823529  10.000000  84.208145
  CU   30.000000  15.384615  23.529412  10.000000  78.914027
  TA   10.000000   7.692308   5.882353  10.000000  33.574661
  TO   20.000000  23.076923   5.882353  30.000000  78.959276
  Sum 100.000000 100.000000 100.000000 100.000000 400.000000
barplot(prop.table(TCrecuento,2)*100,legend=TRUE, ylab="Porcentaje relativo")

Las distribuciones condicionales nos permiten comparar entre las filas o columnas de una tabla de doble entrada.

Paradoja de Simpson

Tal y como ocurre con las variables cuantitativas , los efectos de las variables latentes pueden cambiar e incluso invertir las relaciones observadas entre dos variables categóricas.

Ejemplo:

Comparación de la eficacia de dos servicios técnicos, STA y STB en función de las Reparaciones Exitosas y las Reparaciones Fallidas:

STA STB
Reparacion Exitosa: 2037 784
Reparacion Fallida: 63 16
Total 2100 800

Ahora bien, no todas las reparaciones son igual de complejas, podemos clasificar las reparaciones según sean dispositivos en garantia o no:

Garantía SI STA STB
Reparacion Exitosa: 594 592
Reparacion Fallida: 6 8
Total 600 600
Garantía NO STA STB
Reparacion Exitosa: 1443 192
Reparacion Fallida: 57 8
Total 1500 200

La Paradoja de Simpson se refiere al cambio de sentido de una comparación o de una asociación cuando datos de distintos grupos se combinan en uno solo.